{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "964cfe0c-eddf-4ebd-a501-1b79080b2ffb",
   "metadata": {},
   "source": [
    "## 加载TXT文档"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "ace447a3-ba24-4313-9501-4897a3577236",
   "metadata": {},
   "outputs": [],
   "source": [
    "from langchain_community.document_loaders import TextLoader"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "b1df2f34-274a-4991-956d-ead094c77509",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[Document(page_content='罗浮宫（法语：Musée du Louvre,英语 /ˈluːv(rə)/ ），正式名称为罗浮博物馆，位于法国巴黎市中心的塞纳河边，原是建于12世纪末至13世纪初的王宫，现在是一所综合博物馆，亦是世界上最大的艺术博物馆之一，以及参观人数最多的博物馆，是巴黎中心最知名的地标。\\n\\n罗浮宫的建筑物始建于1190年左右，并在近代曾多次进行扩建，今天所见的模样则一个巨大的翼楼和亭阁建筑群，主要组成部分的总面积则超过60,600平方公尺（652,000平方英尺），馆内永久收藏则包括雕塑、绘画、美术工艺及古代东方、古代埃及和古希腊罗马等7个分类，主要收藏1860年以前的艺术作品与考古文物，罗浮宫博物馆在1793年8月10日开幕起正式对公众开放，平均每天有15,000名游客到此参观，其中65%是外国游客。\\n\\n位置\\n\\n罗浮宫与杜乐丽花园的卫星照片\\n罗浮宫博物馆位于巴黎市中心的卢浮宫内，位于塞纳河右岸，毗邻杜乐丽花园。最近的两个地铁站是皇家宫-罗浮宫站和卢浮-里沃利站，前者有直达地下购物中心 Carrousel du Louvre 的地下通道。\\n\\n在1980年代末和1990年代大改建之前，罗浮宫共有好几个街道入口，目前大部分入口已经永久关闭。自1993年以来，博物馆的正门位置位于拿破仑广场金字塔底下的地下空间，游客可以从金字塔本身、旋转阶梯处连接到博物馆的通道。\\n\\n博物馆的参观时间随著时代的推移而变化。自18世纪开放以来，只有艺术家和来自外国的观光游客享有特权参观，这项特权后在1850年代才消失。当博物馆从1793年首次开放时，新历法法国共和历规定了“十天周”（法语：décades），其中前六天为艺术家和外国人访问，后三天为将军访问，民众仅能在最后一天参观，后在在1800年代初期在恢复七天周后，民众在每周只有4小时的时间能在罗浮宫参观，周六和周日则是缩减至下午2点至下午4点期间参观。\\n\\n从1824年开始的一项新规定允许公众在星期日和节假日时参观，然而其他日子只对艺术家和外国游客开放，这种情况到1855年才发生了变化，博物馆更改成除了周一外全天向公众免费开放，直到1922年才开始收费。\\n\\n当前自1946年开始，罗浮宫除了在周二公休和特殊假日外，通常向游客全面开放参观，内部允许使用照相机和录像机，但禁止使用闪光灯。', metadata={'source': './demo.txt'})]"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "loader = TextLoader(\"./demo.txt\")\n",
    "docs = loader.load()\n",
    "docs"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "c69909ce-0c7b-4cc7-b73a-15daf57a0284",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "罗浮宫（法语：Musée du Louvre,英语 /ˈluːv(rə)/ ），正式名称为罗浮博物馆，位于法国巴黎市中心的塞纳河边，原是建于12世纪末至13世纪初的王宫，现在是一所综合博物馆，亦是世界上最大的艺术博物馆之一，以及参观人数最多的博物馆，是巴黎中心最知名的地标。\n",
      "\n",
      "罗浮宫的建筑物始建于1190年左右，并在近代曾多次进行扩建，今天所见的模样则一个巨大的翼楼和亭阁建筑群，主要组成部分的总面积则超过60,600平方公尺（652,000平方英尺），馆内永久收藏则包括雕塑、绘画、美术工艺及古代东方、古代埃及和古希腊罗马等7个分类，主要收藏1860年以前的艺术作品与考古文物，罗浮宫博物馆在1793年8月10日开幕起正式对公众开放，平均每天有15,000名游客到此参观，其中65%是外国游客。\n",
      "\n",
      "位置\n",
      "\n",
      "罗浮宫与杜乐丽花园的卫星照片\n",
      "罗浮宫博物馆位于巴黎市中心的卢浮宫内，位于塞纳河右岸，毗邻杜乐丽花园。最近的两个地铁站是皇家宫-罗浮宫站和卢浮-里沃利站，前者有直达地下购物中心 Carrousel du Louvre 的地下通道。\n",
      "\n",
      "在1980年代末和1990年代大改建之前，罗浮宫共有好几个街道入口，目前大部分入口已经永久关闭。自1993年以来，博物馆的正门位置位于拿破仑广场金字塔底下的地下空间，游客可以从金字塔本身、旋转阶梯处连接到博物馆的通道。\n",
      "\n",
      "博物馆的参观时间随著时代的推移而变化。自18世纪开放以来，只有艺术家和来自外国的观光游客享有特权参观，这项特权后在1850年代才消失。当博物馆从1793年首次开放时，新历法法国共和历规定了“十天周”（法语：décades），其中前六天为艺术家和外国人访问，后三天为将军访问，民众仅能在最后一天参观，后在在1800年代初期在恢复七天周后，民众在每周只有4小时的时间能在罗浮宫参观，周六和周日则是缩减至下午2点至下午4点期间参观。\n",
      "\n",
      "从1824年开始的一项新规定允许公众在星期日和节假日时参观，然而其他日子只对艺术家和外国游客开放，这种情况到1855年才发生了变化，博物馆更改成除了周一外全天向公众免费开放，直到1922年才开始收费。\n",
      "\n",
      "当前自1946年开始，罗浮宫除了在周二公休和特殊假日外，通常向游客全面开放参观，内部允许使用照相机和录像机，但禁止使用闪光灯。\n"
     ]
    }
   ],
   "source": [
    "# 查看第一个Document元素的文本内容\n",
    "print(docs[0].page_content)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "453f1a41-b778-46ed-b6b6-88c08fedf4d9",
   "metadata": {},
   "source": [
    "## 加载PDF文档"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "fce5cba3-245f-4980-9998-a5688ce75ef9",
   "metadata": {},
   "outputs": [],
   "source": [
    "#!pip install pypdf"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "aa126f88-5110-4dc6-be00-c5ccd67d6e43",
   "metadata": {},
   "outputs": [],
   "source": [
    "from langchain_community.document_loaders import PyPDFLoader"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "bc580db4-9ce1-4fef-8757-2ad65ad9a727",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[Document(page_content='学习⼤语⾔模型原理必看的  10 篇论⽂\\n1🚀\\n学习⼤语⾔模型原理必看的  1 0  篇论\\n⽂\\n1 . T r a n s f o r m e r\\nChatGPT 使⽤的预训练模型  GPT ，是在  Transf ormer 中的  decoder 基础上进⾏改造\\n的。\\n论⽂标题：Attention Is All Y ou Need\\n论⽂链接： ht tps://ar xiv .or g/pdf /17 06 . 037 62.pdf\\n摘要：占主导地位的序列转导模型是基于复杂的递归或卷积神经⽹络，包括⼀个编码器和\\n⼀个解码器。性能最好的模型还通过注意机制将编码器和解码器连接起来。我们提出了⼀\\n个新的简单的⽹络结构 –Transf ormer ，它只基于注意⼒机制，完全不需要递归和卷积。\\n在两个机器翻译任务上的实验表明，这些模型在质量上更胜⼀筹，同时也更容易并⾏化，\\n需要的训练时间也⼤⼤减少。我们的模型在 WMT 2014 英德翻译任务中达到了 28.4 \\nBLEU，⽐现有的最佳结果（包括合集）提⾼了 2 BLEU 以上。在 WMT 2014 英法翻译任\\n务中，我们的模型在 8 个 GPU 上训练了 3.5 天后，建⽴了新的单模型最先进的 BLEU 得分，\\n即41.0分，这只是⽂献中最佳模型的训练成本的⼀⼩部分。\\n2 . G P T - 3\\nGPT 家族与  BERT 模型都是知名的  NLP 预训练模型，都基于  Transf ormer 技术。 GPT \\ue088\\n1 只有 12个  Transf ormer 层，⽽到了  GPT \\ue0883 ，则增加到  96 层。\\n论⽂标题：Language Models ar e Few-Shot Le arners\\n论⽂链接： ht tps://ar xiv .or g/pdf /2005 . 14 165 .pdf\\n摘要：最近的⼯作表明，在许多 NLP 任务和基准上，通过对⼤型⽂本语料库进⾏预训练，\\n然后对特定的任务进⾏微调，可以获得巨⼤的收益。虽然在结构上通常是任务⽆关的，但\\n这种⽅法仍然需要特定任务的微调数据集，包括⼏千或⼏万个例⼦。相⽐之下，⼈类通常\\n只需通过⼏个例⼦或简单的指令就能完成⼀项新的语⾔任务 – ⽽⽬前的 NLP 系统在很⼤程\\n度上仍难以做到这⼀点。在这⾥，我们展⽰了扩⼤语⾔模型的规模，⼤⼤改善了与任务⽆\\n关的、少量的性能，有时甚⾄达到了与之前最先进的微调⽅法的竞争⼒。具体来说，我们', metadata={'source': './论文介绍.pdf', 'page': 0}),\n",
       " Document(page_content='学习⼤语⾔模型原理必看的  10 篇论⽂\\n2训练了 GPT \\ue0883 ，⼀个具有 1750 亿个参数的⾃回归语⾔模型，⽐以前的任何⾮稀疏语⾔模\\n型多 10倍，并测试了它在少数情况下的性能。对于所有的任务， GPT \\ue0883 的应⽤没有任何梯\\n度更新或微调，纯粹通过与模型的⽂本互动来指定任务和少量演⽰。 GPT \\ue0883 在许多 NLP 数\\n据集上取得了强⼤的性能，包括翻译、回答问题和 cloze 任务，以及⼀些需要即时推理或\\n领域适应的任务，如解读单词、在句⼦中使⽤⼀个新词或进⾏ 3 位数的算术。同时，我们\\n也发现了⼀些数据集，在这些数据集中， GPT \\ue0883 的⼏率学习仍然很困难，还有⼀些数据\\n集， GPT \\ue0883 ⾯临着与⼤型⽹络语料库训练有关的⽅法学问题。最后，我们发现， GPT \\ue0883 可\\n以⽣成⼈类评价者难以区分的新闻⽂章样本。我们讨论了这⼀发现和 GPT \\ue0883 总体上的更⼴\\n泛的社会影响。\\n3 . I n s t r u c t G P T\\nChatGPT 的训练流程，主要参考⾃  instructGPT ， ChatGPT 是改进的  instructGPT 。\\n论⽂标题：Training language models t o follow instructions with human f eedb ack\\n论⽂链接： ht tps://ar xiv .or g/pdf /2203 . 02155 .pdf\\n摘要：让语⾔模型变得更⼤并不意味着它们能更好地遵循⽤户的意图。例如，⼤型语⾔模\\n型可以产⽣不真实的、有毒的或根本对⽤户没有帮助的输出。换句话说，这些模型没有与\\n⽤户保持⼀致。在本⽂中，我们展⽰了⼀个途径，通过⼈类反馈的微调，在⼴泛的任务中\\n使语⾔模型与⽤户的意图保持⼀致。从⼀组标签员写的提⽰语和通过 OpenAI API 提交的\\n提⽰语开始，我们收集了⼀组标签员演⽰的所需模型⾏为的数据集，我们利⽤监督学习对\\nGPT \\ue0883进⾏微调。然后，我们收集模型输出的排名数据集，我们利⽤⼈类反馈的强化学习\\n来进⼀步微调这个监督模型。我们把产⽣的模型称为 InstructGPT 。在⼈类对我们的提⽰\\n分布的评估中，尽管参数少了 100 倍，但 1.3B 参数的 InstructGPT 模型的输出⽐ 175B 的\\nGPT \\ue0883的输出更受欢迎。此外， InstructGPT 模型显⽰了真实性的改善和有毒输出⽣成的\\n减少，同时在公共 NLP 数据集上的性能回归最⼩。尽管 InstructGPT 仍然会犯⼀些简单的\\n错误，但我们的结果表明，利⽤⼈类反馈进⾏微调是使语⾔模型与⼈类意图相⼀致的⼀个\\n有希望的⽅向。\\n4 . S p a r r o w\\nDeepMind 的  Sparrow ，这个⼯作发表时间稍晚于  instructGPT ，其⼤致的技术思路和\\n框架与  instructGPT 的三阶段基本类似，不过明显 Sparrow 在⼈⼯标注⽅⾯的质量和⼯\\n作量是不如 instructGPT 的。反过来， Sparrow 中把奖励模型分为两个不同  RM 的思路，\\n理论上是优于 instructGPT 的。\\n论⽂标题：Impr oving alignment of dialogue agent s via t argeted human judgement s\\n论⽂链接： ht tps://ar xiv .or g/pdf /2209 . 1437 5 .pdf', metadata={'source': './论文介绍.pdf', 'page': 1}),\n",
       " Document(page_content='学习⼤语⾔模型原理必看的  10 篇论⽂\\n3摘要：我们提出了 Sparrow ，⼀个寻求信息的对话代理，与提⽰的语⾔模型基线相⽐，它\\n被训练得更有帮助，更正确，更⽆害。我们使⽤来⾃⼈类反馈的强化学习来训练我们的模\\n型，并增加了两个新的内容来帮助⼈类评分者判断代理⾏为。⾸先，为了使我们的代理更\\n有帮助和⽆害，我们将良好对话的要求分解为代理应该遵循的⾃然语⾔规则，并分别询问\\n评分者每条规则。我们证明，这种分解使我们能够收集更有针对性的⼈类对代理⾏为的判\\n断，并允许更有效的规则条件的奖励模型。第⼆，我们的代理在收集对模型声明的偏好判\\n断时，提供⽀持事实性要求的来源的证据。对于事实问题，⿇雀提供的证据在 78% 的情\\n况下⽀持采样的反应。 Sparrow ⽐基线更经常受到⻘睐，同时对⼈类的对抗性探测更有弹\\n性，在被探测时只有 8% 的时间违反了我们的规则。最后，我们进⾏了⼴泛的分析，表明\\n尽管我们的模型学会了遵循我们的规则，但它会表现出分布性的偏差。\\n5 . R L H F\\nInstructGPT /GPT3 .5 （ ChatGPT 的前⾝）与  GPT \\ue0883 的主要区别在于，新加⼊了被称为  \\nRLHF（ Reinforcement Le arning fr om Human F eedb ack ，⼈类反馈强化学习）。这⼀\\n训练范式增强了⼈类对模型输出结果的调节，并且对结果进⾏了更具理解性的排序。\\n论⽂标题：Augmenting R einforcement Le arning with Human F eedb ack\\n论⽂链接： ht tps://www .cs.ut e x as.edu /~ai-lab/pubs/ICML_ IL 11-kno x.pdf\\n摘要：随着计算代理越来越多地被⽤于研究实验室之外，它们的成功将取决于它们学习新\\n技能和适应其动态、复杂环境的能⼒。如果⼈类⽤户 – 没有编程技能 – 能够将他们的任务知\\n识转移给代理，那么学习就会⼤⼤加快，减少昂贵的试验。 TAMER 框架指导代理⼈的设\\n计，其⾏为可以通过批准和不批准的信号来塑造，这是⼈类反馈的⼀种⾃然形式。最近，\\nTAMER\\ue09dRL被引⼊，使⼈类反馈能够增强传统的强化学习（ RL ）代理，该代理从⻢尔科\\n夫决策过程（ MDP ）的奖励信号中学习。通过对 TAMER 和 TAMER\\ue09dRL 的重新实现，我们\\n解决了先前⼯作的局限性，在两个关键⽅向上做出了贡献。⾸先，我们在第⼆个任务上测\\n试了先前 TAMER\\ue09dRL ⼯作中结合⼈类强化和 RL 的四种成功技术，并分析了这些技术对参\\n数变化的敏感性。这些检查共同产⽣了更多的⼀般性和规范性的结论，以指导那些希望将\\n⼈类知识纳⼊ RL 算法的其他⼈。第⼆， TAMER\\ue09dRL 到⽬前为⽌仅限于顺序设置，即在从\\nMDP奖励中学习之前发⽣训练。我们对顺序算法进⾏了修改，使其能够同时从两个来源\\n进⾏学习，从⽽使⼈类的反馈能够在强化学习过程中的任何时候出现。为了实现同步学\\n习，我们引⼊了⼀种新的技术，适当地确定⼈类模型在整个时间和状态动作空间对 RL 算\\n法的影响程度。\\n6 . T A M E R', metadata={'source': './论文介绍.pdf', 'page': 2}),\n",
       " Document(page_content='学习⼤语⾔模型原理必看的  10 篇论⽂\\n4ChatGPT 中的  TAMER （ Training an Agent Manuall y via Ev aluativ e Reinforcement ，\\n评估式强化⼈⼯训练代理）框架，将⼈类标记者引⼊到  Agent s 的学习循环中，可以通过\\n⼈类向  Agent s 提供奖励反馈（即指导  Agent s 进⾏训练），从⽽快速达到训练任务⽬\\n标。\\n论⽂标题：Interactiv ely Shaping Agent s via Human R einforcement\\n论⽂链接： ht tps://www .cs.ut e x as.edu /~br adkno x/p apers/k c ap09-kno x.pdf\\n摘要：随着计算学习代理进⼊产⽣实际成本的领域（例如，⾃动驾驶或⾦融投资），有必\\n要在没有⼤量⾼成本学习试验的情况下学习好的政策。减少学习任务的样本复杂性的⼀个\\n有希望的⽅法是将知识从⼈类转移到代理⼈。理想情况下，转移的⽅法应该是任何拥有任\\n务知识的⼈都可以使⽤的，不管这个⼈在编程和⼈⼯智能⽅⾯的专业知识如何。本⽂的重\\n点是允许⼈类培训师通过强化信号互动地塑造⼀个代理的政策。具体来说，本⽂介绍了  \\n“通过评估性强化训练代理 ˮ ，即 tamer ，⼀个能够实现这种塑造的框架。与以前的交互式\\n塑造⽅法不同， tamer 代理对⼈类的强化进⾏建模，并通过选择预期会得到最多强化的⾏\\n动来利⽤其模型。来⾃两个领域的结果表明，⾮专业⼈员可以在不定义环境奖励函数（如\\nMDP）的情况下训练驯兽师代理，并表明在驯兽师框架内的⼈类训练可以⽐⾃主学习算\\n法降低样本的复杂性。\\n7 . P P O\\nPPO（ Proximal P olicy Optimization ，近端策略优化）强化学习模型，是  ChatGPT 训\\n练的第三阶段。\\n论⽂标题：Proximal P olicy Optimization Algor ithms\\n论⽂链接： ht tps://ar xiv .or g/pdf /17 0 7 . 06347 .pdf\\n摘要：我们为强化学习提出了⼀个新的策略梯度⽅法系列，它通过与环境的交互作⽤在数\\n据采样和使⽤随机梯度上升优化⼀个  \" 代理  \" ⽬标函数之间交替进⾏。标准的策略梯度⽅\\n法对每个数据样本进⾏⼀次梯度更新，⽽我们提出了⼀个新的⽬标函数，可以进⾏多次的\\n⼩批量更新。我们称之为近似策略优化（ PPO ）的新⽅法具有信任区域策略优化\\n（TRPO）的⼀些优点，但它们的实现要简单得多，更通⽤，并且具有更好的样本复杂性\\n（经验上）。我们的实验在⼀系列基准任务上测试了 PPO ，包括模拟机器⼈运动和 Atari\\n游戏，我们表明 PPO 优于其他在线策略梯度⽅法，并且总体上在样本复杂性、简单性和壁\\n垒时间之间取得了有利的平衡。\\n8 . I n - C o n t e x t  L e a r n i n g', metadata={'source': './论文介绍.pdf', 'page': 3}),\n",
       " Document(page_content='学习⼤语⾔模型原理必看的  10 篇论⽂\\n5ChatGPT 的认知能⼒不全是从语料的统计中习得的，他还有临场学习的能⼒，这种能⼒\\n称作  In-Cont ext Learning ，学术界本⾝对这种能⼒也还没有充分理解。\\n8 . 1 Wh y Can GPT Le ar n In-Cont e x t\\n论⽂标题：Why Can GPT Le arn In-Cont ext? Language Models Secr etly Perform \\nGradient Descent as Met a-Optimiz ers\\n论⽂链接： ht tps://ar xiv .or g/pdf /2212. 10559 .pdf\\n摘要：⼤型预训练的语⾔模型显⽰了令⼈惊讶的语境学习（ In-Cont ext Learning ， ICL ）\\n能⼒。通过⼀些⽰范性的输⼊ - 标签对，它们可以预测未⻅过的输⼊的标签，⽽⽆需额外\\n的参数更新。尽管在性能上取得了巨⼤的成功，但 ICL 的⼯作机制仍然是⼀个开放的问\\n题。为了更好地理解 ICL 的⼯作原理，本⽂将语⾔模型解释为元优化器，并将 ICL 理解为\\n⼀种隐性的微调。从理论上讲，我们弄清楚了 Transf ormer 注意⼒有⼀个基于梯度下降的\\n优化的双重形式。在此基础上，我们对 ICL 的理解如下。 GPT ⾸先根据⽰范实例产⽣元梯\\n度，然后将这些元梯度应⽤于原始的 GPT ，建⽴ ICL 模型。在实验中，我们综合⽐较了\\nICL和基于真实任务的显式微调的⾏为，以提供⽀持我们理解的经验证据。结果证明，\\nICL在预测层⾯、表征层⾯和注意⾏为层⾯的表现与显式微调类似。此外，受我们对元优\\n化的理解启发，我们通过与基于动量的梯度下降算法的类⽐，设计了基于动量的注意⼒。\\n它⽐⾹草式注意⼒持续更好的表现从另⼀个⽅⾯再次⽀持了我们的理解，更重要的是，它\\n显⽰了利⽤我们的理解进⾏未来模型设计的潜⼒。\\n8 .2 What le ar ning algor it hm is in-cont e x t le ar ning\\n论⽂标题：What le arning algor ithm is in-cont ext learning? In vestigations with line ar \\nmodels\\n论⽂链接： ht tps://ar xiv .or g/pdf /2211. 15661.pdf\\n摘要：神经序列模型，特别是转化器，表现出显著的语境中学习的能⼒。它们可以从输⼊\\n的标记例⼦序列（ x,f(x) ）中构建新的预测器，⽽⽆需进⼀步更新参数。我们研究了这样\\n⼀个假设：基于转化器的语境中学习者通过在其激活中编码较⼩的模型，并在语境中出现\\n新的例⼦时更新这些隐性模型，从⽽隐性地实施标准的学习算法。使⽤线性回归作为⼀个\\n原型问题，我们为这个假设提供了三个证据。⾸先，我们通过构造证明，转化器可以实现\\n基于梯度下降和闭式脊回归的线性模型的学习算法。第⼆，我们表明，经过训练的语境中\\n的学习者与梯度下降、⼭脊回归和精确最⼩⼆乘回归计算的预测者密切匹配，随着转化器\\n深度和数据集噪声的变化，在不同的预测者之间过渡，并在⼤宽度和⼤深度下收敛到⻉叶\\n斯估计者。第三，我们提出了初步证据，证明 in-cont ext 学习者与这些预测者共享算法特\\n征：学习者的后期层⾮线性地编码权重向量和矩矩阵。这些结果表明，上下⽂学习在算法\\n⽅⾯是可以理解的，⽽且（⾄少在线性情况下）学习者可以重新发现标准的估计算法。', metadata={'source': './论文介绍.pdf', 'page': 4}),\n",
       " Document(page_content='学习⼤语⾔模型原理必看的  10 篇论⽂\\n69 . P r o m p t\\nChatGPT 训练时的输⼊使⽤的是  Prompt ， Prompt 是研究者们为了下游任务设计出来的\\n⼀种输⼊形式或模板，它能够帮助预训练模型 “ 回忆 ˮ 起⾃⼰在预训练时 “ 学习 ˮ 到的东⻄。\\n论⽂标题：Pre-train, Pr ompt, and Pr edict: A Syst ematic Sur vey of Pr ompting  \\nMethods in Natural Language Pr ocessing\\n论⽂链接： ht tps://dl.acm.or g/doi/pdf /10 . 1145/3560815\\n摘要：本⽂调查并组织了⾃然语⾔处理中的⼀个新范式的研究⼯作，我们称之为  “ 基于  \\nprompt 的学习 ˮ 。与传统的监督学习不同的是，传统的监督学习是训练⼀个模型来接受\\n⼀个输⼊ x 并预测⼀个输出 y 作为 P(y|x) ，⽽基于提⽰的学习是基于语⾔模型，直接对⽂本\\n的概率进⾏建模。为了使⽤这些模型来执⾏预测任务，原始输⼊ x 被使⽤模板修改成⼀个\\n⽂本字符串  prompt xʼ ，其中有⼀些未填充的槽，然后语⾔模型被⽤来概率性地填充未填\\n充的信息，得到最终的字符串 x ，从中可以得出最终的输出 y 。由于⼀些原因，这个框架\\n是强⼤和有吸引⼒的：它允许语⾔模型在⼤量的原始⽂本上进⾏预训练，并且通过定义⼀\\n个新的  prompting 函数，模型能够进⾏少次甚⾄零次的学习，适应只有很少或没有标记\\n数据的新场景。在本⽂中，我们介绍了这种有前途的范式的基本原理，描述了⼀套统⼀的\\n数学符号，可以涵盖各种现有的⼯作，并沿着⼏个维度组织现有的⼯作，例如选择预训练\\n的模型、 prompt s 和调整策略。为了让感兴趣的初学者更容易了解这个领域，我们不仅\\n对现有的⼯作进⾏了系统的回顾，并对基于  prompt 的概念进⾏了⾼度结构化的分类，⽽\\n且还发布了其他资源，例如，⼀个包括不断更新的调查的⽹站 http URL ，以及论⽂清\\n单。', metadata={'source': './论文介绍.pdf', 'page': 5})]"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "loader = PyPDFLoader(\"./论文介绍.pdf\")\n",
    "docs = loader.load()\n",
    "docs"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "e34ba196-7432-4c05-99da-d4c9606887da",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "学习⼤语⾔模型原理必看的  10 篇论⽂\n",
      "1🚀\n",
      "学习⼤语⾔模型原理必看的  1 0  篇论\n",
      "⽂\n",
      "1 . T r a n s f o r m e r\n",
      "ChatGPT 使⽤的预训练模型  GPT ，是在  Transf ormer 中的  decoder 基础上进⾏改造\n",
      "的。\n",
      "论⽂标题：Attention Is All Y ou Need\n",
      "论⽂链接： ht tps://ar xiv .or g/pdf /17 06 . 037 62.pdf\n",
      "摘要：占主导地位的序列转导模型是基于复杂的递归或卷积神经⽹络，包括⼀个编码器和\n",
      "⼀个解码器。性能最好的模型还通过注意机制将编码器和解码器连接起来。我们提出了⼀\n",
      "个新的简单的⽹络结构 –Transf ormer ，它只基于注意⼒机制，完全不需要递归和卷积。\n",
      "在两个机器翻译任务上的实验表明，这些模型在质量上更胜⼀筹，同时也更容易并⾏化，\n",
      "需要的训练时间也⼤⼤减少。我们的模型在 WMT 2014 英德翻译任务中达到了 28.4 \n",
      "BLEU，⽐现有的最佳结果（包括合集）提⾼了 2 BLEU 以上。在 WMT 2014 英法翻译任\n",
      "务中，我们的模型在 8 个 GPU 上训练了 3.5 天后，建⽴了新的单模型最先进的 BLEU 得分，\n",
      "即41.0分，这只是⽂献中最佳模型的训练成本的⼀⼩部分。\n",
      "2 . G P T - 3\n",
      "GPT 家族与  BERT 模型都是知名的  NLP 预训练模型，都基于  Transf ormer 技术。 GPT \n",
      "1 只有 12个  Transf ormer 层，⽽到了  GPT 3 ，则增加到  96 层。\n",
      "论⽂标题：Language Models ar e Few-Shot Le arners\n",
      "论⽂链接： ht tps://ar xiv .or g/pdf /2005 . 14 165 .pdf\n",
      "摘要：最近的⼯作表明，在许多 NLP 任务和基准上，通过对⼤型⽂本语料库进⾏预训练，\n",
      "然后对特定的任务进⾏微调，可以获得巨⼤的收益。虽然在结构上通常是任务⽆关的，但\n",
      "这种⽅法仍然需要特定任务的微调数据集，包括⼏千或⼏万个例⼦。相⽐之下，⼈类通常\n",
      "只需通过⼏个例⼦或简单的指令就能完成⼀项新的语⾔任务 – ⽽⽬前的 NLP 系统在很⼤程\n",
      "度上仍难以做到这⼀点。在这⾥，我们展⽰了扩⼤语⾔模型的规模，⼤⼤改善了与任务⽆\n",
      "关的、少量的性能，有时甚⾄达到了与之前最先进的微调⽅法的竞争⼒。具体来说，我们\n"
     ]
    }
   ],
   "source": [
    "# 查看第一个Document元素的文本内容\n",
    "print(docs[0].page_content)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "f3bde527-64d7-41f9-a2a5-c7b27c53c279",
   "metadata": {},
   "source": [
    "## 加载维基百科词条"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "9d020213-1ceb-4f42-b67b-ec9e2c252dd0",
   "metadata": {},
   "outputs": [],
   "source": [
    "#!pip install wikipedia"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "0d0e5f70-d227-4df3-b9c6-bcc92f92699c",
   "metadata": {},
   "outputs": [],
   "source": [
    "from langchain_community.document_loaders import WikipediaLoader"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "id": "8a4ba6f3-8096-44fb-806d-d666792e0b5f",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[Document(page_content='颐和园是清朝的皇家行宮和大型皇家園林，位于中国北京市海淀区西北，占地297公顷。颐和园修建于清朝乾隆年间（原名清漪园）、重建于光绪年间，曾属于清朝北京西郊三山五园之一。颐和园素以人工建筑与自然山水巧妙结合的造园手法著称于世，是中国园林艺术顶峰时期的代表。1998年，颐和园被评为世界文化遺產。\\n\\n\\n== 历史 ==\\n金朝贞元元年（1153年），金主完颜亮在香山、玉泉山设置金山行宫。元朝定都北京后，郭守敬开辟上游水源，引昌平白浮村神山泉水及沿途流水注入湖中，使水势增大，成为保障宫廷用水和接济漕运的蓄水库。:102明朝弘治七年（1494年），明孝宗乳母佐圣夫人罗氏在瓮山前建圆静寺，後來卻荒廢了。此后瓮山周围的园林逐渐增多。明武宗在湖滨修建行宫，称“好山园”，为皇室园林，并将“瓮山”之名改回为“金山”，瓮山泊改名“金海”。明武宗、明神宗都曾在此泛舟游乐。明熹宗时，宦官魏忠贤曾将好山园据为己有。清代初期，瓮山成为宫廷养马的草料场，有罪太监被发配至此铡草。:103\\n颐和园的前身清漪园，则始建于清乾隆十五年（1750年）。北京西北郊原有瓮山，为燕山余脉，山下有湖，称七里澧、大泊湖、瓮山泊、西湖。乾隆初年，北京西郊海淀一带的园林增多，大量的园林用水使得耗水量与日俱增，当时园林用水除了流量较小的万泉河水系外，多来自玉泉山发源、流入西湖之水，而这也是明代以来通惠河的水源，如果大量截流玉泉山水，将威胁到北京至通州一段的通惠河水位，直接影响到漕运。\\n清高宗乾隆十五年（1750年），為了籌備其母親崇慶皇太后（孝聖憲皇后）的六十歲大壽，乾隆帝以治理京西水系为借口下令拓挖西湖，拦截西山、玉泉山、寿安山来水，并在西湖西边开挖高水湖和养水湖，以此三湖作为蓄水库，保证宫廷园林用水，并为周围农田提供灌溉用水。乾隆帝以汉武帝挖昆明池操练水军的典故将西湖更名为昆明湖，将挖湖土方堆筑于湖北的瓮山，并将瓮山改名为萬壽山。乾隆二十九年（1764年）清漪园建成，耗银480餘万两。:411清漪园內以中国古代神话中“海上三仙山”的構思，在昆明湖及西侧的两湖内建造三個小島：南湖島、團城島、藻鑒堂島，以比喻海上三山：蓬萊、方丈、瀛洲。清漪园的总体规划以杭州西湖为蓝本，同时广泛仿建江南园林及山水名胜，如凤凰墩仿太湖、景明楼仿岳阳楼、望蟾阁仿黄鹤楼、后溪湖买卖街仿苏州水街、西所买卖街仿扬州廿四桥等等。园内的主体建筑为大报恩延寿寺，并有一條長達700多米尺的长廊，其建築與裝飾繪畫都相當精彩具有藝術價值以及众多遊赏建筑。\\n清漪园园中理政及居住性质的建筑极少，乾隆帝遊览清漪园均为当日往返，从未在园中居住。:413\\n清朝道光年后，由于国力衰弱，宣布撤三山陈设，清漪园逐渐荒废。咸丰十年（1860年），清漪园在英法联军之役中被英法联军大火燒毁。\\n\\n\\n=== 慈禧時期翻修 ===\\n同治十二年（1873）九月，同治帝以方便慈禧太后頤養為名，降旨翻修頤和園，時估預算為：需銀1,000萬兩，木材一項，徑7寸至4尺多，長1丈5到4丈8的楠柏陳黃松木3,000根。而因朝廷長久鎮壓太平天國各省款項支絀，又逢值西北左宗棠正在鎮壓回民起義，捐輸和釐金全投入於戰事中，大清庫房無法增加負擔修園開支。十月二日時御史沈淮、帝師李鴻藻及翰林院侍講學士李文田等一道上疏勸諫皇帝放棄修園計劃，不果。同治十三年（1874）一月十九日正式開工，經費出自捐款40多萬，木材由人到福州買進口的。同治帝曾多次親自視察工地。與慈禧太后同族的兩廣總督瑞麟，時為贊成工程計劃者，而朝野大臣逐漸增多反對同治強推工程，如奕訢、奕譞、景壽等於三月二十四日共同上疏勸諫，不果。抵受同治壓力而出資2萬兩報效銀的恭親王，也於七月十六日上《敬陳先烈請皇上及時定志用濟艱危摺》要求停工，附議此摺的還有10多名御前大臣與軍機大臣。奕訢步步緊逼同治帝，而令其對奕訢懷恨在心，寫下朱諭革掉他一切職務。九月二日又改為只將他降為郡王，仍在軍機大臣上行走。三日又下朱諭，革去惇王奕誴、醇親王奕譞、科爾沁博多勒噶台親王伯彥訥謨祜、額駙景壽、貝勒奕劻、軍機大臣奕訢、文祥、沈桂芬、李鴻藻等10人的職務。後經慈禧太后遊說，同治才立即發出上諭，恢復奕訢世襲罔替的親王銜，以及恢復奕誴、奕譞的官職。\\n光绪十年至二十一年间（1884年至1895年），慈禧太后“还政”后退居休养，醇親王奕譞動用以北洋水師名義所籌措的經費重建清漪园。由于经费有限，乃集中财力修复前山建筑群，并在昆明湖四周加筑围墙，並取“頤養沖和”之意將清漪園改名為颐和園，成为離宮。\\n\\n\\n=== 中華民國時期公園 ===\\n清帝逊位后，颐和园成为清室私产，民国三年（1914年）始对外售票开放。民国十三年（1924年）溥仪被驱逐出宫后，颐和园被北平特别市政府接管，改为公园。\\n\\n\\n=== 中華人民共和國時期 ===\\n1949年北平和平解放後，毛泽东曾在颐和园益寿堂宴请民主党派人士。多位共产党政要以及毛泽东故交（如柳亚子、江青）均曾在园中的听鹂馆等处居住。1953年起，颐和园作为公园对公众开放。\\n\\n\\n== 景观 ==\\n\\n颐和园以万寿山和昆明湖为主，昆明湖占颐和园总面积的四分之三。除了湖山，还有殿堂景区、耕织图景区。重要建筑集中在万寿山南北中轴线上。万寿山分为前山、后山两部分，前山自东向西有养云轩、无尽意轩、介寿堂、排云殿、清华轩、宝云阁、共一楼、听鹂馆、画中游等知名景观。后山南北中轴线为规模宏大的汉藏风格寺庙殿宇，包括四大部洲、须弥灵境、香岩宗印之阁等等，周围点缀以数座小型山间园林，有苏州街、寅辉城关、花承阁、赅春园、绘芳堂等建筑。昆明湖中有三座岛屿，分别名为南湖岛、藻鉴堂岛、治镜阁岛。昆明湖由一条西堤将大湖一分为二，光绪时建立围墙，修筑起了东堤。\\n颐和园的主要区域可包括六个部分，分别是殿堂景区（是帝后料理朝政和住宿所在）、万寿山景区、昆明湖景区、耕织图景区（独特的农牧色彩）、长廊景区和中轴景区（起于前山云辉玉宇牌楼，止于后山慈福慧因牌楼）。作为一座知名园林博物馆，拥有丰富制式的园林建筑和景观营造手法，涵盖了中国传统名著中的亭台楼阁，轩榭台堂。\\n\\n\\n=== 前山 ===\\n东宫门：为颐和园的正门。门前有两只铜狮，是清漪园遗物。宫门前的云龙石阶是圆明园安佑宫遗物。门额上“颐和园”三字为光绪帝御笔親賜。宫门前有大广场，南北两侧为朝房，前有大影壁。\\n仁寿殿：在颐和园东宫门内，是慈禧太后、光緒帝夏天住在頤和园中臨朝聽政，接受恭賀，以及接見王公大臣和外國使節的地方，這裡也曾經是光绪皇帝頒詔實行變法维新的地方。始建於乾隆十五年（1750年）命名为勤政殿，意為不忘勤理政務。咸豐十年（1860年）遭到英法聯軍焚毀，光绪十二年（1886年）慈禧太后重建時，改为现名，意為施仁政者長壽之意，是頤和園聽政區的主要建築。殿为东向，面阔九间，单檐卷棚歇山顶，两侧有南北配殿，前有铜麒麟、寿星石，以及銅龍銅鳳的雕像，排列在仁壽殿外。是皇帝，皇后在舉行朝會大典時會點燃檀香。在中國古代龍就是皇帝的象徵，鳳就是皇后的象徵。按照慣例是龍在上，鳳在下，但是自慈禧太后掌權之後，就將龍，鳳的位置給顛倒變成鳳在上，龍在下，藉此來顯示出慈禧太后的權威。殿外懸掛著“大圓寶鏡”的匾額，意為當政者的智慧如同大圓寶鏡一樣，能夠洞察一切。殿內則是高懸著“壽協仁符”的金字匾額，意為仁與壽君子兼而有之。正殿內設置慈禧太后，光绪帝召見王公大臣時的寶座，寶座是用上等的紫檀木雕刻而成，椅背上刻有九條金龍，寶座的旁邊設有掌扇，鼎爐，鶴燈。东为仁寿门。殿北有水井“延年井”，殿后为巨大的狮子林假山，仿苏州狮子林，堆山所用的剑石、石笋为圆明园正大光明殿后假山遗物。玉瀾堂：在仁寿殿西，始建于乾隆十五年（1750年），咸豐十年（1860年），光绪十八年（1892年）重建，成为皇帝在頤和园中處理政務和居住的地方。正殿即玉澜堂，堂名是取自晉代詩人陸機的詩句“玉泉甬微瀾”當中的“玉”和“瀾”二字合併而成。內設有御案寶座。原为一四通八达的穿墙殿，光绪皇帝曾经被慈禧太后囚禁于此，因此殿北的后门用砖墙砌死。前院东配殿名霞芬室，西配殿为藕香榭，两殿的门内亦可见圈禁光绪帝的围墙，是一处重要的历史遗迹。正殿地砖上原有坑洼洞痕，为光绪帝被囚禁时用手杖击地发泄而成。玉澜堂西侧另有夕佳楼，楼西为邻水过道，蜿蜒曲折，称为“九道湾”。\\n宜芸馆：在玉澜堂北面，乾隆时是藏书之所，光绪年間改建为光緒皇帝的皇后隆裕的居所。院门为垂花门，称宜芸门，门内侧墙壁上有10块石刻，是乾隆帝摹写的名家法帖，原藏于惠山园内，重建时移此。正殿为宜芸馆，东配房称道存斋，西配房称近西轩，均沿用乾隆时旧名。戊戌政变后，玉澜堂与宜芸馆之间的通道也被砖墙切断。宜芸馆北门有飞阁复道通至德和园戏台。\\n德和园大戏楼：颐和园中看戏的地方，原为乾隆时期的怡春堂。楼高21米，三层，结构与圆明园同乐园清音阁和避暑山庄清音阁相同（与紫禁城畅音阁不同的地方在于其外形是卷棚顶，且覆灰瓦），是清朝最大的戏楼之一，三层舞台间有天地井相通，南部有两层的扮戏楼，北部为看戏用的颐乐殿。德和园之东为“东八所”（寿膳房、寿茶房、寿药房）、养花厂和武备院等服务性院落，现被隔出颐和园，改为颐和安缦酒店。\\n樂壽堂：是慈禧太后在頤和園中居住的地方，始建於乾隆十五年（1750年），咸豐十年（1860年）遭到英法聯軍燒毀，光绪十三年（1887年）重建。门外有水木自亲码头，有牌坊，是清宫中最早安装电灯的地方之一。院子分为三路，中路乐寿堂为慈禧太后的居所，中部为起居空间，裡面設有用上等木材紫檀木雕刻而成的“御案寶座”後面放著十五折的玻璃屏風，兩側設有羽毛掌扇，羽毛掌扇不但裝飾精美，也可以顯示出慈禧太后的威儀。西间为寝宫，东间为更衣室。堂前陈列铜鹿、铜鹤、宝瓶，取“六', metadata={'title': '颐和园', 'summary': '颐和园是清朝的皇家行宮和大型皇家園林，位于中国北京市海淀区西北，占地297公顷。颐和园修建于清朝乾隆年间（原名清漪园）、重建于光绪年间，曾属于清朝北京西郊三山五园之一。颐和园素以人工建筑与自然山水巧妙结合的造园手法著称于世，是中国园林艺术顶峰时期的代表。1998年，颐和园被评为世界文化遺產。', 'source': 'https://zh.wikipedia.org/wiki/%E9%A2%90%E5%92%8C%E5%9B%AD'}),\n",
       " Document(page_content='《颐和园》（英語：Summer Palace）是一部2006年中國大陆电影，由娄烨执导，郭晓冬、郝蕾、胡伶和张献民主演。影片讲述了两名青年男女跨越十几年的的感情纠纷，其中穿插着六四事件等社会背景。本片也是中国大陆首部男女主角正面全裸出镜的电影，而早期电影如《蓝宇》（2001）、《绿帽子》（2003）、《星星相吸惜》（2004）等有男性正面全裸的镜头。\\n本片于2004年9月开机，2005年5月关机，拍摄时长九个月。取景地点包括北京、重庆、武汉、柏林、北戴河、图们。《颐和园》于2006年5月18日在戛纳电影节首映。电影中的政治色彩与大量的性爱场景在中国大陆受到关注，因未经中国国家广播电影电视总局批准而擅自参加戛纳电影节，本片在中国大陆被封禁，导演与制片人受到了处罚。\\n\\n\\n== 剧情 ==\\n1987年初，中朝边境图们。邮递员晓军去邮局拿信件，之后来到余虹父亲开的杂货铺。余虹打开信件，发现自己被北京的“北清大学”录取。余虹在一个篮球场与晓军见面，晓军与几个打篮球的人发生争执，被打得鼻青脸肿。晚上在草丛中，余虹与晓军发生了性行为。\\n余虹乘火车来到了北清大学，开始了大学生活。一天，余虹结识了隔壁宿舍的女生李缇，聊天中她告诉余虹她男朋友若古在柏林留学。李缇和余虹与回国后的若古见面，并与在同一大学的周伟结识。余虹逐渐与周伟走近并与其发生性关系。两人在颐和园昆明湖泛舟，在夕阳下相依。\\n余虹去周伟宿舍，发现他正与一个女生一起吃饭，余虹见状离开。周伟去台球厅找余虹，余想挣脱周伟的怀抱，但最后顺从。在一次欢愉后，余虹要周伟去结扎，并称那样就不疼了。周询问缘由，余说是心理学老师告诉她的，并且她和他上过床。北清大学的学生开始去天安门，余虹几人也一同跟随。李缇与周伟在宿舍进行性行为时，被学校人员发现。余虹见到了周伟的一名舍友，他告诉她教务处已经知道了周李的事情，让她不要再去见周伟。\\n余虹遇到了来北京探望她的晓军，两人和衣而卧，半夜晓军悄然离去。余虹发现晓军不见，急忙到操场寻找。在操场示威过程中枪声响起，学生们开始四散。余虹的舍友冬冬找到周伟，告诉她余虹不见了。周伟急忙带领冬冬寻找余虹，但未果而返。冬冬再次找到周伟，告诉他余虹已离开。若古离开北京返回柏林，余虹与晓军则返回图们。当时恰为1989年。\\n1991年，余虹离开图们去往深圳。1994年，周伟与李缇到达柏林。1997年，余虹与深圳好友王波到达武汉。余虹在一间卡拉OK唱歌，之后与一个中年男性去了一间餐厅。下雨天，余虹来到中年男人家中，两人拥吻缠绵。余虹接受了其单位同事吴刚的爱意，并与之发生了性关系。余虹去医院墮胎，与吴刚提出分手，并决定去重庆。周伟也打算去重庆，在柏林的一次聚会中，李缇从高楼落下自杀身亡。周伟回到重庆后，在偶然的机会下联系上了余虹，而此时余虹已为人妻。两人见面后余虹借口去买酒而离开，周伟等了一晚上后驾车离开，而余虹在路上看到了驾车途中的周伟。\\n\\n\\n== 演员 ==\\n\\n\\n== 主题 ==\\n导演娄烨称这部影片探讨的是爱情。他认为余红和周伟最美好的瞬间是在颐和园湖面上泛舟的场景，这是片名《颐和园》的含义。主演郝蕾认为“《颐和园》是一个少女的成人礼，也是娄烨他们整整一代人的青春记忆”。也有评论认为《頤和園》是一部愛情電影，卻也是一部政治電影，只是愛情濃烈明朗，政治隱晦迂迴，用愛情來掩護政治。\\n\\n\\n== 制作 ==\\n2004年9月，《颐和园》在北京开机。2005年5月影片在柏林关机，拍摄历时长九个月。剧组先后辗转北京、重庆、武汉、柏林、北戴河、图们六个城市，导演娄烨从900多本拷贝中剪出了9个小时的素材，最终制作出134分钟的“征求意见版”。\\n\\n\\n== 发行 ==\\n2006年5月18日，《颐和园》于法国坎城影展首映。其后陆续在加拿大、韩国、香港、新加坡、美国、日本、台湾等地上映。\\n\\n\\n=== 家庭媒体 ===\\n《颐和园》于2008年1月28日在法国释出二区版DVD。单碟版包括原声普通话配法文字幕的影片、制作特辑纪录片、一个有关审查的特辑、娄烨的电影笔记和剧组的传记。一区版DVD于2008年3月11日在美国释出。\\n\\n\\n== 评价 ==\\n《颐和园》在多个国际电影节上映，最引人注目的是戛纳电影节，它是当年唯一参加角逐的亚洲电影，但未获得任何奖项。\\n这部电影的口碑还不错。有人赞赏了电影的野心及深度，但大多数人都认为电影太长了，有足足140分钟。德里克·埃利（Derek Elley)在《综艺》志上写道：“这部电影有一个半个小时是多余的”，《每日电讯报》的评论也说这部电影“有半个钟是没用的”，不过该片是“一部不成熟而又令人激动的新作品”。《卫报》也认为电影“太长了而且很啰嗦”，但同时也“很出色”。《纽约时报》的影评人A·O·斯科特评论道“尽管这部电影长达有2小时20分钟，但它就像流行音乐一样快速而有节奏地变化。法国《世界报》影评指出，从未在中国电影里看到如此大胆赤裸演出，但是陷在粘腻的抒情情调和忧伤的音乐衬景里，反叛力道跟着降低。\\n本片在美国发行时未评级。一些美国影评人说《颐和园》是这些年来性爱最露骨的电影之一。《纽约客》的大卫·邓比（David Denby）说他从来没有见过一部电影中有这么多的性爱情节。\\n\\n\\n=== 禁令 ===\\n2006年5月15日，《颐和园》送到中国国家广播电影电视总局接受审查。次日电影局转述了审片委员会的审片意见，称“画面太暗，看不清，声音也听不清楚”，从而拒绝审查。17日再度送审，同样被拒绝。但娄烨坚持以私人名义带领主演郭晓冬、郝蕾等出席电影记者会及首映礼。9月1日，娄烨因违规参赛，和该片的制片人耐安一起，被广电总局处罚5年内不得拍片。但在被禁的5年内，娄烨仍参与了两部电影的拍摄。\\n\\n\\n== 奖项 ==\\n2001年，本片剧本获韩国釜山电影节青年导演计划的剧本奖。\\n\\n\\n== 参见 ==\\n《苹果》，李玉执导的2007年电影，同样由勞雷影業制作，被广电总局封禁。\\n中华人民共和国被禁电影列表\\n\\n\\n== 参考资料 ==\\n\\n\\n== 外部链接 ==\\n互联网电影数据库（IMDb）上《頤和園》的资料（英文）\\nYahoo奇摩電影上《頤和園》的資料（繁體中文）\\n開眼電影網上《頤和園》的資料（繁體中文）\\nAllMovie上《頤和園 》的资料（英文）\\n爛番茄上《頤和園》的資料（英文）', metadata={'title': '颐和园 (电影)', 'summary': '《颐和园》（英語：Summer Palace）是一部2006年中國大陆电影，由娄烨执导，郭晓冬、郝蕾、胡伶和张献民主演。影片讲述了两名青年男女跨越十几年的的感情纠纷，其中穿插着六四事件等社会背景。本片也是中国大陆首部男女主角正面全裸出镜的电影，而早期电影如《蓝宇》（2001）、《绿帽子》（2003）、《星星相吸惜》（2004）等有男性正面全裸的镜头。\\n本片于2004年9月开机，2005年5月关机，拍摄时长九个月。取景地点包括北京、重庆、武汉、柏林、北戴河、图们。《颐和园》于2006年5月18日在戛纳电影节首映。电影中的政治色彩与大量的性爱场景在中国大陆受到关注，因未经中国国家广播电影电视总局批准而擅自参加戛纳电影节，本片在中国大陆被封禁，导演与制片人受到了处罚。', 'source': 'https://zh.wikipedia.org/wiki/%E9%A2%90%E5%92%8C%E5%9B%AD_(%E7%94%B5%E5%BD%B1)'}),\n",
       " Document(page_content='颐和园西门站位于中国北京市海淀区四季青地区颐和园西门附近，是北京地铁西郊线的有轨电车车站。车站于2017年12月30日随西郊线开通而投入使用。\\n\\n\\n== 位置 ==\\n颐和园西门站位于颐和园西门路与金河路交汇路口南，临近颐和园西门。车站西北面临近北坞公园。车站位置在金河路西侧，大致呈西北-东南走向布置。\\n\\n\\n== 结构 ==\\n颐和园西门站为地面车站，侧式站台布置。\\n该站进站方式比较特殊，西郊线轨道不封闭，去巴沟站方向一侧乘客需走过轨道进站，没有其他的出入口。\\n\\n\\n== 注释 ==\\n\\n\\n== 参考文献 ==', metadata={'title': '颐和园西门站', 'summary': '颐和园西门站位于中国北京市海淀区四季青地区颐和园西门附近，是北京地铁西郊线的有轨电车车站。车站于2017年12月30日随西郊线开通而投入使用。', 'source': 'https://zh.wikipedia.org/wiki/%E9%A2%90%E5%92%8C%E5%9B%AD%E8%A5%BF%E9%97%A8%E7%AB%99'})]"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "loader = WikipediaLoader(query=\"颐和园\", load_max_docs=3, lang=\"zh\")\n",
    "docs = loader.load()\n",
    "docs"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "id": "e83d5df2-2e85-43bc-be6b-67d807b30bdb",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "颐和园是清朝的皇家行宮和大型皇家園林，位于中国北京市海淀区西北，占地297公顷。颐和园修建于清朝乾隆年间（原名清漪园）、重建于光绪年间，曾属于清朝北京西郊三山五园之一。颐和园素以人工建筑与自然山水巧妙结合的造园手法著称于世，是中国园林艺术顶峰时期的代表。1998年，颐和园被评为世界文化遺產。\n",
      "\n",
      "\n",
      "== 历史 ==\n",
      "金朝贞元元年（1153年），金主完颜亮在香山、玉泉山设置金山行宫。元朝定都北京后，郭守敬开辟上游水源，引昌平白浮村神山泉水及沿途流水注入湖中，使水势增大，成为保障宫廷用水和接济漕运的蓄水库。:102明朝弘治七年（1494年），明孝宗乳母佐圣夫人罗氏在瓮山前建圆静寺，後來卻荒廢了。此后瓮山周围的园林逐渐增多。明武宗在湖滨修建行宫，称“好山园”，为皇室园林，并将“瓮山”之名改回为“金山”，瓮山泊改名“金海”。明武宗、明神宗都曾在此泛舟游乐。明熹宗时，宦官魏忠贤曾将好山园据为己有。清代初期，瓮山成为宫廷养马的草料场，有罪太监被发配至此铡草。:103\n",
      "颐和园的前身清漪园，则始建于清乾隆十五年（1750年）。北京西北郊原有瓮山，为燕山余脉，山下有湖，称七里澧、大泊湖、瓮山泊、西湖。乾隆初年，北京西郊海淀一带的园林增多，大量的园林用水使得耗水量与日俱增，当时园林用水除了流量较小的万泉河水系外，多来自玉泉山发源、流入西湖之水，而这也是明代以来通惠河的水源，如果大量截流玉泉山水，将威胁到北京至通州一段的通惠河水位，直接影响到漕运。\n",
      "清高宗乾隆十五年（1750年），為了籌備其母親崇慶皇太后（孝聖憲皇后）的六十歲大壽，乾隆帝以治理京西水系为借口下令拓挖西湖，拦截西山、玉泉山、寿安山来水，并在西湖西边开挖高水湖和养水湖，以此三湖作为蓄水库，保证宫廷园林用水，并为周围农田提供灌溉用水。乾隆帝以汉武帝挖昆明池操练水军的典故将西湖更名为昆明湖，将挖湖土方堆筑于湖北的瓮山，并将瓮山改名为萬壽山。乾隆二十九年（1764年）清漪园建成，耗银480餘万两。:411清漪园內以中国古代神话中“海上三仙山”的構思，在昆明湖及西侧的两湖内建造三個小島：南湖島、團城島、藻鑒堂島，以比喻海上三山：蓬萊、方丈、瀛洲。清漪园的总体规划以杭州西湖为蓝本，同时广泛仿建江南园林及山水名胜，如凤凰墩仿太湖、景明楼仿岳阳楼、望蟾阁仿黄鹤楼、后溪湖买卖街仿苏州水街、西所买卖街仿扬州廿四桥等等。园内的主体建筑为大报恩延寿寺，并有一條長達700多米尺的长廊，其建築與裝飾繪畫都相當精彩具有藝術價值以及众多遊赏建筑。\n",
      "清漪园园中理政及居住性质的建筑极少，乾隆帝遊览清漪园均为当日往返，从未在园中居住。:413\n",
      "清朝道光年后，由于国力衰弱，宣布撤三山陈设，清漪园逐渐荒废。咸丰十年（1860年），清漪园在英法联军之役中被英法联军大火燒毁。\n",
      "\n",
      "\n",
      "=== 慈禧時期翻修 ===\n",
      "同治十二年（1873）九月，同治帝以方便慈禧太后頤養為名，降旨翻修頤和園，時估預算為：需銀1,000萬兩，木材一項，徑7寸至4尺多，長1丈5到4丈8的楠柏陳黃松木3,000根。而因朝廷長久鎮壓太平天國各省款項支絀，又逢值西北左宗棠正在鎮壓回民起義，捐輸和釐金全投入於戰事中，大清庫房無法增加負擔修園開支。十月二日時御史沈淮、帝師李鴻藻及翰林院侍講學士李文田等一道上疏勸諫皇帝放棄修園計劃，不果。同治十三年（1874）一月十九日正式開工，經費出自捐款40多萬，木材由人到福州買進口的。同治帝曾多次親自視察工地。與慈禧太后同族的兩廣總督瑞麟，時為贊成工程計劃者，而朝野大臣逐漸增多反對同治強推工程，如奕訢、奕譞、景壽等於三月二十四日共同上疏勸諫，不果。抵受同治壓力而出資2萬兩報效銀的恭親王，也於七月十六日上《敬陳先烈請皇上及時定志用濟艱危摺》要求停工，附議此摺的還有10多名御前大臣與軍機大臣。奕訢步步緊逼同治帝，而令其對奕訢懷恨在心，寫下朱諭革掉他一切職務。九月二日又改為只將他降為郡王，仍在軍機大臣上行走。三日又下朱諭，革去惇王奕誴、醇親王奕譞、科爾沁博多勒噶台親王伯彥訥謨祜、額駙景壽、貝勒奕劻、軍機大臣奕訢、文祥、沈桂芬、李鴻藻等10人的職務。後經慈禧太后遊說，同治才立即發出上諭，恢復奕訢世襲罔替的親王銜，以及恢復奕誴、奕譞的官職。\n",
      "光绪十年至二十一年间（1884年至1895年），慈禧太后“还政”后退居休养，醇親王奕譞動用以北洋水師名義所籌措的經費重建清漪园。由于经费有限，乃集中财力修复前山建筑群，并在昆明湖四周加筑围墙，並取“頤養沖和”之意將清漪園改名為颐和園，成为離宮。\n",
      "\n",
      "\n",
      "=== 中華民國時期公園 ===\n",
      "清帝逊位后，颐和园成为清室私产，民国三年（1914年）始对外售票开放。民国十三年（1924年）溥仪被驱逐出宫后，颐和园被北平特别市政府接管，改为公园。\n",
      "\n",
      "\n",
      "=== 中華人民共和國時期 ===\n",
      "1949年北平和平解放後，毛泽东曾在颐和园益寿堂宴请民主党派人士。多位共产党政要以及毛泽东故交（如柳亚子、江青）均曾在园中的听鹂馆等处居住。1953年起，颐和园作为公园对公众开放。\n",
      "\n",
      "\n",
      "== 景观 ==\n",
      "\n",
      "颐和园以万寿山和昆明湖为主，昆明湖占颐和园总面积的四分之三。除了湖山，还有殿堂景区、耕织图景区。重要建筑集中在万寿山南北中轴线上。万寿山分为前山、后山两部分，前山自东向西有养云轩、无尽意轩、介寿堂、排云殿、清华轩、宝云阁、共一楼、听鹂馆、画中游等知名景观。后山南北中轴线为规模宏大的汉藏风格寺庙殿宇，包括四大部洲、须弥灵境、香岩宗印之阁等等，周围点缀以数座小型山间园林，有苏州街、寅辉城关、花承阁、赅春园、绘芳堂等建筑。昆明湖中有三座岛屿，分别名为南湖岛、藻鉴堂岛、治镜阁岛。昆明湖由一条西堤将大湖一分为二，光绪时建立围墙，修筑起了东堤。\n",
      "颐和园的主要区域可包括六个部分，分别是殿堂景区（是帝后料理朝政和住宿所在）、万寿山景区、昆明湖景区、耕织图景区（独特的农牧色彩）、长廊景区和中轴景区（起于前山云辉玉宇牌楼，止于后山慈福慧因牌楼）。作为一座知名园林博物馆，拥有丰富制式的园林建筑和景观营造手法，涵盖了中国传统名著中的亭台楼阁，轩榭台堂。\n",
      "\n",
      "\n",
      "=== 前山 ===\n",
      "东宫门：为颐和园的正门。门前有两只铜狮，是清漪园遗物。宫门前的云龙石阶是圆明园安佑宫遗物。门额上“颐和园”三字为光绪帝御笔親賜。宫门前有大广场，南北两侧为朝房，前有大影壁。\n",
      "仁寿殿：在颐和园东宫门内，是慈禧太后、光緒帝夏天住在頤和园中臨朝聽政，接受恭賀，以及接見王公大臣和外國使節的地方，這裡也曾經是光绪皇帝頒詔實行變法维新的地方。始建於乾隆十五年（1750年）命名为勤政殿，意為不忘勤理政務。咸豐十年（1860年）遭到英法聯軍焚毀，光绪十二年（1886年）慈禧太后重建時，改为现名，意為施仁政者長壽之意，是頤和園聽政區的主要建築。殿为东向，面阔九间，单檐卷棚歇山顶，两侧有南北配殿，前有铜麒麟、寿星石，以及銅龍銅鳳的雕像，排列在仁壽殿外。是皇帝，皇后在舉行朝會大典時會點燃檀香。在中國古代龍就是皇帝的象徵，鳳就是皇后的象徵。按照慣例是龍在上，鳳在下，但是自慈禧太后掌權之後，就將龍，鳳的位置給顛倒變成鳳在上，龍在下，藉此來顯示出慈禧太后的權威。殿外懸掛著“大圓寶鏡”的匾額，意為當政者的智慧如同大圓寶鏡一樣，能夠洞察一切。殿內則是高懸著“壽協仁符”的金字匾額，意為仁與壽君子兼而有之。正殿內設置慈禧太后，光绪帝召見王公大臣時的寶座，寶座是用上等的紫檀木雕刻而成，椅背上刻有九條金龍，寶座的旁邊設有掌扇，鼎爐，鶴燈。东为仁寿门。殿北有水井“延年井”，殿后为巨大的狮子林假山，仿苏州狮子林，堆山所用的剑石、石笋为圆明园正大光明殿后假山遗物。玉瀾堂：在仁寿殿西，始建于乾隆十五年（1750年），咸豐十年（1860年），光绪十八年（1892年）重建，成为皇帝在頤和园中處理政務和居住的地方。正殿即玉澜堂，堂名是取自晉代詩人陸機的詩句“玉泉甬微瀾”當中的“玉”和“瀾”二字合併而成。內設有御案寶座。原为一四通八达的穿墙殿，光绪皇帝曾经被慈禧太后囚禁于此，因此殿北的后门用砖墙砌死。前院东配殿名霞芬室，西配殿为藕香榭，两殿的门内亦可见圈禁光绪帝的围墙，是一处重要的历史遗迹。正殿地砖上原有坑洼洞痕，为光绪帝被囚禁时用手杖击地发泄而成。玉澜堂西侧另有夕佳楼，楼西为邻水过道，蜿蜒曲折，称为“九道湾”。\n",
      "宜芸馆：在玉澜堂北面，乾隆时是藏书之所，光绪年間改建为光緒皇帝的皇后隆裕的居所。院门为垂花门，称宜芸门，门内侧墙壁上有10块石刻，是乾隆帝摹写的名家法帖，原藏于惠山园内，重建时移此。正殿为宜芸馆，东配房称道存斋，西配房称近西轩，均沿用乾隆时旧名。戊戌政变后，玉澜堂与宜芸馆之间的通道也被砖墙切断。宜芸馆北门有飞阁复道通至德和园戏台。\n",
      "德和园大戏楼：颐和园中看戏的地方，原为乾隆时期的怡春堂。楼高21米，三层，结构与圆明园同乐园清音阁和避暑山庄清音阁相同（与紫禁城畅音阁不同的地方在于其外形是卷棚顶，且覆灰瓦），是清朝最大的戏楼之一，三层舞台间有天地井相通，南部有两层的扮戏楼，北部为看戏用的颐乐殿。德和园之东为“东八所”（寿膳房、寿茶房、寿药房）、养花厂和武备院等服务性院落，现被隔出颐和园，改为颐和安缦酒店。\n",
      "樂壽堂：是慈禧太后在頤和園中居住的地方，始建於乾隆十五年（1750年），咸豐十年（1860年）遭到英法聯軍燒毀，光绪十三年（1887年）重建。门外有水木自亲码头，有牌坊，是清宫中最早安装电灯的地方之一。院子分为三路，中路乐寿堂为慈禧太后的居所，中部为起居空间，裡面設有用上等木材紫檀木雕刻而成的“御案寶座”後面放著十五折的玻璃屏風，兩側設有羽毛掌扇，羽毛掌扇不但裝飾精美，也可以顯示出慈禧太后的威儀。西间为寝宫，东间为更衣室。堂前陈列铜鹿、铜鹤、宝瓶，取“六\n"
     ]
    }
   ],
   "source": [
    "# 查看第一个Document元素的文本内容\n",
    "print(docs[0].page_content)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "3d869f3f-ae8d-457a-922c-735b7a078c56",
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.11.3"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
